Un generator vocal AI imită aproape perfect vocea unui om: De ce este periculoasă tehnologia, conform specialiștilor

de: Ozana Mazilu
17 07. 2024

Microsoft a dezvoltat un nou generator vocal bazat pe inteligența artificială (AI) atât de convingător încât nu poate fi lansat publicului.

VALL-E 2, un generator de text-în-vorbire (TTS), poate reproduce vocea unui vorbitor uman folosind doar câteva secunde de audio, susțin creatorii săi.

Cercetătorii de la Microsoft au declarat că VALL-E 2 este capabil să genereze „vorbire precisă și naturală în exact vocea vorbitorului original, comparabilă cu performanța umană”, într-o lucrare publicată pe 17 iunie pe serverul arXiv. Cu alte cuvinte, noul generator vocal AI este suficient de convingător pentru a fi confundat cu o persoană reală — cel puțin, conform creatorilor săi.

„VALL-E 2 este cea mai recentă avansare în modelele de limbaj neural codec, marcând un punct de referință în sinteza TTS zero-shot, atingând paritatea umană pentru prima dată”, au scris cercetătorii în lucrare.

„Mai mult, VALL-E 2 sintetizează constant vorbire de înaltă calitate, chiar și pentru fraze care sunt în mod tradițional dificile din cauza complexității sau a frazelor repetitive”.

Paritatea umană în acest context înseamnă că vorbirea generată de VALL-E 2 a egalat sau a depășit calitatea vorbirii umane în testele folosite de Microsoft.

Tehnologii avansate

Motorul AI este capabil de această performanță datorită includerii a două caracteristici cheie: „Repetition Aware Sampling” și „Grouped Code Modeling”. Repetition Aware Sampling îmbunătățește modul în care AI-ul convertește textul în vorbire prin abordarea repetițiilor „token-urilor” — unități mici de limbaj, cum ar fi cuvinte sau părți de cuvinte — prevenind buclele infinite de sunete sau fraze în timpul procesului de decodare. Cu alte cuvinte, această caracteristică ajută la varierea tiparului de vorbire al VALL-E 2, făcându-l să sune mai fluid și natural.

Grouped Code Modeling, pe de altă parte, îmbunătățește eficiența prin reducerea lungimii secvenței — sau numărul de token-uri individuale pe care modelul le procesează într-o singură secvență de intrare. Acest lucru accelerează modul în care VALL-E 2 generează vorbire și ajută la gestionarea dificultăților care apar la procesarea șirurilor lungi de sunete.

Cercetătorii au folosit mostre audio din bibliotecile de vorbire LibriSpeech și VCTK pentru a evalua cât de bine se potriveau generările VALL-E 2 cu înregistrările vorbitorilor umani. De asemenea, au folosit ELLA-V — un cadru de evaluare conceput pentru a măsura acuratețea și calitatea vorbirii generate — pentru a determina cât de eficient a gestionat VALL-E 2 sarcinile mai complexe de generare a vorbirii.

„Experimentele noastre, desfășurate pe seturile de date LibriSpeech și VCTK, au arătat că VALL-E 2 depășește sistemele anterioare TTS zero-shot în robustețea, naturalețea și similaritatea vorbirii”, au scris cercetătorii.

„Este primul de acest fel care atinge paritatea umană pe aceste puncte de referință”.

Cercetătorii au subliniat în lucrare că calitatea ieșirilor VALL-E 2 depinde de lungimea și calitatea prompturilor de vorbire, precum și de factori de mediu, cum ar fi zgomotul de fundal.

Proiect pur de cercetare

În ciuda capacităților sale, Microsoft nu va lansa VALL-E 2 publicului din cauza potențialelor riscuri de utilizare greșită. Aceasta coincide cu preocupările tot mai mari legate de clonarea vocii și tehnologia deepfake. Alte companii AI, cum ar fi OpenAI, au impus restricții similare pe tehnologia lor vocală. „VALL-E 2 este pur și simplu un proiect de cercetare. În prezent, nu avem planuri de a încorpora VALL-E 2 într-un produs sau de a extinde accesul publicului”, au scris cercetătorii într-o postare pe blog.

„Acesta poate prezenta riscuri potențiale de utilizare greșită a modelului, cum ar fi falsificarea identificării vocale sau imitarea unui vorbitor specific”, spun ei.

Cu toate acestea, au sugerat că tehnologia vocală AI ar putea vedea aplicații practice în viitor.

„VALL-E 2 ar putea sintetiza vorbire care menține identitatea vorbitorului și ar putea fi utilizată pentru învățare educațională, divertisment, conținut jurnalistic, conținut auto-generat, funcții de accesibilitate, sisteme interactive de răspuns vocal, traducere, chatbot-uri și așa mai departe”, au adăugat cercetătorii.

Ei au continuat: „Dacă modelul este generalizat pentru vorbitori neprevăzuți în lumea reală, ar trebui să includă un protocol pentru a se asigura că vorbitorul aprobă utilizarea vocii sale și un model de detectare a vorbirii sintetizate”.